Day 14 - Web仔從數學角度學習卷積神經網路數值 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 14

AI/ ML & Data

Day 14 - Web仔從數學角度學習卷積神經網路數值

16th鐵人賽

609 瀏覽

註：本文同步更新在Notion!（數學公式會比較好閱讀）

在卷積神經網路中，卷積層通過將卷積核（kernel）應用於輸入數據，提取局部特徵。這個操作的數學形式類似於信號處理中的卷積積分，但在 CNN 中，我們通常使用離散的卷積和（convolution sum）。

卷積層是 CNN 的核心，它將輸入數據 X 通過卷積核 W 進行卷積操作，生成特徵圖 Y。卷積層的數值運算特點在於：

權重共享：卷積核在輸入數據的不同區域共享相同的權重，這大大減少了需要學習的參數數量。
局部感受野：卷積核只作用於輸入數據的局部區域，這有助於 CNN 提取局部特徵。

這種局部計算隨著卷積核的滑動在整個輸入上進行，最終生成一個新的特徵圖。

卷積層的輸出通常會經過非線性激活函數，例如ReLU（Rectified Linear Unit）。

ReLU 的作用是將卷積層的輸出進行非線性映射，保留正值，抑制負值，這使得網絡能夠學習更為複雜的非線性特徵。

池化層的作用是對卷積層的輸出進行降維，從而減少數據的尺寸和計算量。最常見的池化操作是最大池化（Max Pooling），它取輸入數據局部區域中的最大值。

卷積運算和大規模矩陣計算涉及到大量的數值運算，因此，CNN 的效率優化是主要目的。優化方法包括：

基於矩陣乘法的優化：卷積操作可以被轉換為矩陣乘法，從而利用線性代數中的快速算法進行加速。例如，對於 m*n 大小的卷積核，通過「圖像轉矩陣」技術（如 im2col），可以將卷積運算轉化為矩陣乘法，從而使用高效的數學庫進行運算。
GPU 加速：CNN 的大部分數值運算可以並行化，特別是卷積和矩陣乘法，因此可以利用 GPU 來加速這些計算。
稀疏卷積核：在實際應用中，有些卷積核是稀疏的，這意味著其中很多元素為零，可以利用稀疏矩陣的存儲和運算方法來進行優化。